本文展示了一种新的方法,可以使用语义分段特征提高面部识别姿势不变。拟议的SEG-DISTILD-ID网络共同学习识别和语义分割任务,然后将分割任务“蒸馏”(Mobilenet编码器)。在强调头置变化的公开数据集中,针对三个最先进的编码器进行了基准测试。实验评估表明,SEG-DISTILD-ID网络显示出显着的鲁棒性优势,相比之下,RESNET-101的测试准确性达到99.9%,VGG-19的96.1%,IntectionV3的vgg-19和96.3%。这是使用顶部编码器推理参数的大约十分之一来实现的。这些结果表明,蒸馏的语义分割特征可以有效地解决面部识别姿势不变。
translated by 谷歌翻译
随着在各个领域中自适应系统的越来越多,对评估其正确行为的策略的需求越来越多。特别是旨在提供弹性和容忍性的自我修复系统,通常会在关键和高度动态的环境中处理意外的故障。它们的反应性和复杂行为使评估这些系统是否按照期望的目标执行起来挑战。最近,一些研究对缺乏自我修复行为的系统评估方法表示关注。在本文中,我们提出了国际象棋,这是一种基于混乱工程的自适应和自我修复系统系统评估的方法。混乱工程是一种使系统遇到意外条件和场景的方法。它在帮助开发人员构建有弹性的微服务体系结构和网络物理系统方面表现出了巨大的希望。国际象棋通过使用混乱工程来评估自我修复系统能够承受这种扰动的能力来解决这个想法。我们通过对自我修复的智能办公环境进行探索性研究来研究这种方法的可行性。该研究有助于我们探索方法的承诺和局限性,并确定需要额外工作的方向。我们总结了经验教训的摘要。
translated by 谷歌翻译
风力涡轮机的评级能力提高的推力导致更大的发电机,更长的刀片和更高的塔。目前,风力涡轮机制造商提供了多达16兆瓦的风力涡轮机,在过去五年中,设计能力近60%。这些涡轮机的制造涉及组装巨大的组件。由于设计的频繁变化和涉及的各种任务,因此不可能使其成为劳动密集型的活动。但是,大型组件的处理和组装挑战了人类的能力。本文提出使用移动机器人助手来部分自动化风力涡轮机制造。机器人助手可以降低生产成本和更好的工作条件。该文章介绍了人类操作员有效执行风力涡轮机的机器人助手的开发。该案件来自领先的风力涡轮机制造商。开发的系统还适用于其他大型制造案件,涉及密集型手动工作。
translated by 谷歌翻译
使用增强的框架,我们证明所有基于杂质的决策树学习算法(包括经典的ID3,C4.5和CART)都具有很高的噪音耐受性。我们的保证在讨厌的噪声的最强噪声模型下保持,我们在允许的噪声速率上提供了近乎匹配的上和下限。我们进一步表明,这些算法简单,长期以来一直是日常机器学习的核心,在嘈杂的环境中享受可证明的保证,这些环境是由关于决策树学习的理论文献中现有算法无与伦比的。综上所述,我们的结果增加了一项持续的研究线,该研究旨在将这些实际决策树算法的经验成功放在牢固的理论基础上。
translated by 谷歌翻译
我们研究了算法收到I.I.D的统计问题中对抗噪声模型的基本问题。从分发$ \ mathcal {d} $绘制。这些对手的定义指定了允许的损坏类型(噪声模型)以及可以进行这些损坏(适应性);后者区别了唯一可以损坏分发$ \ mathcal {d} $和适应性对手的疏忽,这些对手可以损坏他们的腐败依赖于从$ \ mathcal {d} $绘制的特定样本$ s $。在这项工作中,我们调查了在文献中研究的所有噪声模型中是否有效地相当于自适应对手。具体而言,算法$ \ mathcal {a} $的行为可以在不受算法$ \ mathcal {a}'$的情况下始终受到适应性对手的存在的良好近似?我们的第一个结果表明,这确实是在所有合理的噪声模型下广泛的统计查询算法的情况。然后,我们显示在附加噪声的具体情况下,这种等价物适用于所有算法。最后,我们将所有算法和所有合理的噪声模型中的最丰富的一般性映射到最完整的普遍性的方法。
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译
3D手形状和姿势估计从单一深度地图是一种新的和具有挑战性的计算机视觉问题,具有许多应用。现有方法通过2D卷积神经网络直接回归手网,这导致由于图像中的透视失真导致人工制品。为了解决现有方法的局限性,我们开发HandvoxNet ++,即基于体素的深网络,其3D和图形卷轴以完全监督的方式训练。对我们网络的输入是基于截短的符号距离函数(TSDF)的3D Voxelized-Depth-Map。 handvoxnet ++依赖于两只手形状表示。第一个是手工形状的3D体蛋白化网格,它不保留网状拓扑,这是最准确的表示。第二个表示是保留网状拓扑的手表面。我们通过用基于新的神经图卷曲的网格登记(GCN-Meshreg)或典型的段 - 明智的非刚性重力方法(NRGA ++)来将手表面与Voxelized手形状对齐,通过将手表面对准依靠培训数据。在三个公共基准的广泛评估中,即Synhand5M,基于深度的Hands19挑战和HO-3D,所提出的Handvoxnet ++实现了最先进的性能。在本杂志中,我们在CVPR 2020呈现的先前方法的延伸中,我们分别在Synhand5M和17分数据集上获得41.09%和13.7%的形状对准精度。我们的方法在2020年8月将结果提交到门户网站时,首先在Hands19挑战数据集(任务1:基于深度3D手姿势估计)上排名。
translated by 谷歌翻译
方便地访问社交媒体上的视听内容,结合了现代工具的可用性,如Tensorflow或Cheras,开源训练型和经济的计算基础设施,以及深度学习(DL)方法的快速演变,特别是生成的对抗性网络(GAN)使得可以生成DeepFakes来传播欺骗,复仇色情,金融欺诈,恶作剧,并扰乱政府运作。现有调查主要集中在检测到DeepFake图像和视频。本文提供了对基于工具和机器学习(ML)基于DeepFake发电的方法的全面审查和详细分析,以及用于检测音频和视觉泡泡的这种操纵的方法。对于每类DeepFake,我们讨论与操纵方法,当前公共数据集和绩效评估的关键标准相关的信息以及其结果。此外,我们还讨论了开放的挑战,并列举了未来的指导,以引导未来的研究人员对需要​​考虑的问题,以改善深蓝生成和检测的域。预计这项工作有望帮助读者了解DeepFakes的创作和检测机制,以及他们当前的限制和未来方向。
translated by 谷歌翻译
Existing automated techniques for software documentation typically attempt to reason between two main sources of information: code and natural language. However, this reasoning process is often complicated by the lexical gap between more abstract natural language and more structured programming languages. One potential bridge for this gap is the Graphical User Interface (GUI), as GUIs inherently encode salient information about underlying program functionality into rich, pixel-based data representations. This paper offers one of the first comprehensive empirical investigations into the connection between GUIs and functional, natural language descriptions of software. First, we collect, analyze, and open source a large dataset of functional GUI descriptions consisting of 45,998 descriptions for 10,204 screenshots from popular Android applications. The descriptions were obtained from human labelers and underwent several quality control mechanisms. To gain insight into the representational potential of GUIs, we investigate the ability of four Neural Image Captioning models to predict natural language descriptions of varying granularity when provided a screenshot as input. We evaluate these models quantitatively, using common machine translation metrics, and qualitatively through a large-scale user study. Finally, we offer learned lessons and a discussion of the potential shown by multimodal models to enhance future techniques for automated software documentation.
translated by 谷歌翻译
In this paper, we reduce the complexity of approximating the correlation clustering problem from $O(m\times\left( 2+ \alpha (G) \right)+n)$ to $O(m+n)$ for any given value of $\varepsilon$ for a complete signed graph with $n$ vertices and $m$ positive edges where $\alpha(G)$ is the arboricity of the graph. Our approach gives the same output as the original algorithm and makes it possible to implement the algorithm in a full dynamic setting where edge sign flipping and vertex addition/removal are allowed. Constructing this index costs $O(m)$ memory and $O(m\times\alpha(G))$ time. We also studied the structural properties of the non-agreement measure used in the approximation algorithm. The theoretical results are accompanied by a full set of experiments concerning seven real-world graphs. These results shows superiority of our index-based algorithm to the non-index one by a decrease of %34 in time on average.
translated by 谷歌翻译